package bit;

import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.List;
import java.util.Set;

/**
 * 所有 DNA 都由一系列缩写为 A，C，G 和 T 的核苷酸组成，例如：“ACGAATTCCG”。在研究 DNA 时，识别 DNA 中的重复序列有时会对研究非常有帮助。
 *
 * 编写一个函数来查找 DNA 分子中所有出现超过一次的 10 个字母长的序列（子串）。
 *
 *  
 *
 * 示例：
 *
 * 输入：s = "AAAAACCCCCAAAAACCCCCCAAAAAGGGTTT"
 * 输出：["AAAAACCCCC", "CCCCCAAAAA"]
 *
 * 来源：力扣（LeetCode）
 * 链接：https://leetcode-cn.com/problems/repeated-dna-sequences
 * 著作权归领扣网络所有。商业转载请联系官方授权，非商业转载请注明出处。
 * */
public class FindRepeatedDnaSequences {

    public List<String> findRepeatedDnaSequences(String s) {
        Set<String> res = new HashSet<>();
        if(s != null){
            Set<String> tmpSet = new HashSet<>();
            for(int i = 0; i <= s.length() - 10; i ++){
                String tmp = s.substring(i, i + 10);
                if(tmpSet.contains(tmp)){
                    res.add(tmp);
                } else {
                    tmpSet.add(tmp);
                }
            }
        }
        return new ArrayList<>(res);
    }
}
